☆261.第262章比谷歌酷多了
關燈
小
中
大
第262章 比谷歌酷多了
“你可以想象一下,每一個軟件,其實就可以被看成是一整段語言,所有的語句,最後翻譯成01的時候,其實對電腦來說,就是一個特別長的單詞。”
喬伊雙手盡力拉伸:“在語言學上,語言的基本組成部分其實不是字,字是語言的硬件基礎,每一種語言的字,其實都是使用者為了方便而設定的。”
“英文的字母,其實就是簡單的約定符號,中國的漢字,最早是從模擬某種特定的事物而來,以象形為基礎。語言的基礎是詞——詞代表了一個確切的含義。”
“比如中文裏的春天,和英文的spring——在春天這個概念上,它們可以被認為是大概相等的,但兩者並不能完全取代。因為春天只是兩者在語言學上的交集,除了交集含義之外,兩個詞都還分別各自有其他的意思。
“在英文裏,spring還代表著泉水,以及彈簧,這兩個概念都是在中文裏沒有的。同樣,中文的春天,還可以指代某種好的情境,單獨來說,某人的春天到了,還有性暗示的味道——但這種用法在英文裏也是不存在的。”
“這種一個詞代表著多重含義的現象,我們這裏被稱之為語言學上的覆雜程度。沒有具體的指標,是一個感性的標尺。”
“這樣說吧,還是spring,在英文裏,他的覆雜程度就比中文稍微高一些,但大致都是差不多。”
“兩者都是常用詞匯,覆雜程度本身,代表著語言使用過程中的演繹和文明本身的覆雜程度——如果回到石器時代,也許古代的字母文字中,可能存在類似spring的詞,也許字的符號完全不一樣,但它表示的意思,肯定跟中文的春天,英文的spring是大概相等的。”
“但,即使存在這樣一個詞,我們也完全可以斷定這個詞的覆雜程度不會高於現在的spring和春天,為什麽,因為詞的更多含義,並不是語言創立之初被賦予的,而是在漫長的使用過程中自己演化出來的。”
“一個連鐵器都不存在的文明,肯定不會有彈簧的概念——自然也就不需要相應的詞。同樣,在一個性道德還沒有出現的社會裏,性暗示這種高級幽默也不可能有存在的基礎。”
這個叫喬伊的人說話,就跟他抽煙一樣,完全就是一口氣說下來,中間幾乎不存在多少停頓。雖然他的中文不算正宗,中間說著說著還會夾帶出幾個單詞,但大概的意思是明確的。看得出來他的心情有些激動——不知道是熬了一個通宵之後的慣性,還是被話題本身所激發出來的熱情。
這段話的信息量很大,但對陳舍來說其實並不難接受。
因為項目對語言學的關註很早就開始了,其中的一些觀點,做功課的時候,陳舍已經有所涉獵。雖然沒有去做專門的深入了解,但是聽懂這些話本身確實問題不大。喬伊說的這些,只是在前面的基礎上更加深入——倒不是說他們公司在學術上搞出了什麽更深的成果,只是在應用上,用到了更為專業的語言學知識而已。
“更高覆雜程度的語言通常也體現在文學上,從某種程度上來說,文學家對語言的開創性應用本身,就是賦予了同一個詞匯更多的含義,或者在詞匯之間產生更多的映射,甚至根據自己的表達需要,創造出全新的詞匯。”
“比如說超人的英文superman吧,這個概念最早是哲學家尼采提出來的,在德語中是指代未來的某種理想型卓越人士。在由蕭伯納翻譯成英文之後,創造出了一個新單詞superman。”
“superman一個簡單的詞,就可以用來指代尼采原著中,那種覆雜的描述,這種創造性本身,可以看做是對信息的提煉和加工。在漢語中,這樣的現象更加多見,漢語中的成語,可以說是創造性詞匯中,最有代表的一個系列,簡單的四個字,往往代表著很覆雜的一大段概念的集合。
“但是機器語言……不,我應該換一種說法,程序語言。如果我用這種對語言的覆雜度標準,應用在大多數程序語言上的話,那這些程序語言的得分,將會是一個無限接近於0的值。”
“之前我已經說過了,程序是一種最精確的語言——你可以想象一個,一個俄羅斯方塊的游戲語言,整個程序就好像是一個單詞,這個單詞肯定是有意義的,假如我們把組合成這段程序的01展示給外星人看,把程序附帶的運行環境也給他們看,如果程序能被運行——那外星人肯定就能看到一個確切的含義。”
“在這個具體的含義中,是一個不斷出現不同形狀的幾何圖形出現,又消滅的意向——但組合成這個程序的那些單獨程序語句本身是沒有意義的,因為就像我們在討論刻舟求劍時,不會去討論船的速度,劍的重量這些因素一樣……”
老實說,聽到這兒,陳舍已經有點理解困難了,喬伊也看出了這一點,他適當放慢了語速,但陳舍似乎依然難以跟上他的進度。
於是喬伊只能簡單化的給出結論:“以前,地球上是不存在符合語言學定義上的覆雜語言的。但是現在……雖然不知道它是如何出現的,但我們認為,我們找到了……你知道這意味著什麽嗎?”
陳舍搖頭。
“意味著也許就在這顆星球上,某個大公司的機房裏,就存在著一些文明的構造——我說的未必是ai,但它們肯定是掌握語言規則的某種程序,或者某種……東西。”
“它們的語言之覆雜……我學漢語的時候,知道漢語裏最難以被理解的,就是四個字四個字的成語,每一個成語都可以牽扯十幾個附帶詞匯的意向。”
“比如刻舟求劍,船,劍,船上的人,這是基本的,然後還有衍生的概念,水的遮蔽特性,相對於劍的密度特性,相對於人的危險特性……想象一下一個外星人要理解刻舟求劍這個詞,他需要理解多少衍生的附帶概念。最後,在完全理解了這些概念之後,他才有可能理解到成語本身特定指代的某種意向——是用來諷刺主觀意志因為忽略客觀條件的變化而導致的愚蠢行為。
“在英語裏,其實也有類似成語的短句,我就不細說了……”
“這種我們剛剛發現的機器語言,你知道,在它的語言庫裏,我們找到最覆雜的‘成語’,有多少意向指代嗎?”
陳舍看著喬伊,他豎起兩個手指頭:“兩千多個……嚴格來說,它已經不能算是成語了,你知道,兩千多個意向,通常來說,也就是兩千多個詞匯。要表達這些詞匯,考慮到語句上必要的通順和前後的邏輯,用中文大概寫出來的話,就這一個詞,就可以展開寫一篇上萬字的小說了。”
“其實成語就可以看做是被高度壓縮的小說故事——但機器語言中,故事的覆雜程度更高。想象一下這樣一個場景,一個外星人,在電腦上跟你聊天。他說了一句話,裏面包含兩個這樣的關鍵詞——這些詞用01全部表示出來,也就是一兩排而已。但翻譯出來,卻可以是長達幾萬字的內容。你可能需要認真的看20分鐘,再思考20分鐘,才會明白這兩個詞的含義——然後大喊一聲,太tm絕了!”
“所以,你們的任務……”陳舍嘗試著猜測:“是翻譯這種文字?”
“翻譯?”喬伊搖了搖頭,“這個說法太狂妄了。”
“狂妄?”
“翻譯的意思,是把對方文字的所有意思,都轉換成我們能夠理解的意向。但,就我剛才所說,兩個文明的覆雜程度完全不是一個級別的——對方的一個詞,都能讓你思考一個小時……這還是最容易被理解的。你能想象,如果你回到原始社會,你對原始人說的話,可能被他們精準的翻譯嗎?”
喬伊說這話的時候,手上的這根煙正好快抽完,他吸進去最後一口煙霧,然後微微擡起頭來,把這煙霧朝著陳舍頭頂吐去,在他頭頂的上空形成了一小團的雲霧。這個動作不太禮貌,卻也顯得有點孩子氣。喬伊指著這團霧對他說:“更不用說,他們語言中,對時間的定義更加嚴格——同一個詞在不同語境下含義不同,你是中國人,很容易理解。但,如果一個詞在一天24小時的每一個小時裏,含義都不一樣呢?”
“舉個例子把,他們語言中有對應太陽一個詞的單詞,每一個小時的含義都不一樣……朝陽,夕陽,烈日,旭日……中文裏關於太陽的詞匯很多,但在這種機器語言中,太陽只是一個簡單不變的詞,但它的含義,卻比中文裏,所有帶有太陽的詞匯加起來還要多,你能想象嗎?”
“說翻譯……是癡心妄想,”喬伊接著說,“對我們來說,我們只是在瞻仰。就好像一個原始人,靠著一本缺了頁的教科書來學習中文,甚至學習唐詩三百首……當然,具體的語言規則,是由那些語言學專家來負責,我們做的這部分,是大概確定這種數字語言中,單個的字,簡單的數據匹配工作……整個項目中,最沒技術含量的。看著最忙,其實……”
喬伊搖搖頭:“這種感覺……哎,其實當程序員很少會有這種挫敗感,因為在絕大部分項目裏,都是我們來負責推進工作……”
陳舍卻點頭:“我懂,這感覺不好受。”
喬伊扔掉煙:“那,就說說你們公司吧……你們公司還招不招人?對了,中國的工作簽證你們可以搞定嗎?”
陳舍驚訝了一下:“這應該只會是個臨時的項目。”要是開個項目就要把人全部留下來,那青藍咨詢現在應該可以開個富士康了。
“我知道,雖然知道沒什麽希望,但還是要多問這一句,”喬伊道,“我很期待你們公司未來的項目……像這樣的項目,對我們來說,也許一輩子也碰不到一次,你知道嗎,我們項目組很多人甚至以為,你們政府已經發現了外星人,現在正讓我們跟對方交流。”
喬伊不知道,他的這個推斷已經相當的接近事實了。
“所有資料都會需要保密的……”陳舍委婉的提醒。
“這我清楚,在這裏你們連手機都不讓我們用……”喬伊聳聳肩,“我在網上查過你們公司的資料,才成立不到一年……如果你們公司以後招人的話,給我發郵件……青藍咨詢比谷歌酷多了。”
本站無廣告,永久域名(danmei.twking.cc)
“你可以想象一下,每一個軟件,其實就可以被看成是一整段語言,所有的語句,最後翻譯成01的時候,其實對電腦來說,就是一個特別長的單詞。”
喬伊雙手盡力拉伸:“在語言學上,語言的基本組成部分其實不是字,字是語言的硬件基礎,每一種語言的字,其實都是使用者為了方便而設定的。”
“英文的字母,其實就是簡單的約定符號,中國的漢字,最早是從模擬某種特定的事物而來,以象形為基礎。語言的基礎是詞——詞代表了一個確切的含義。”
“比如中文裏的春天,和英文的spring——在春天這個概念上,它們可以被認為是大概相等的,但兩者並不能完全取代。因為春天只是兩者在語言學上的交集,除了交集含義之外,兩個詞都還分別各自有其他的意思。
“在英文裏,spring還代表著泉水,以及彈簧,這兩個概念都是在中文裏沒有的。同樣,中文的春天,還可以指代某種好的情境,單獨來說,某人的春天到了,還有性暗示的味道——但這種用法在英文裏也是不存在的。”
“這種一個詞代表著多重含義的現象,我們這裏被稱之為語言學上的覆雜程度。沒有具體的指標,是一個感性的標尺。”
“這樣說吧,還是spring,在英文裏,他的覆雜程度就比中文稍微高一些,但大致都是差不多。”
“兩者都是常用詞匯,覆雜程度本身,代表著語言使用過程中的演繹和文明本身的覆雜程度——如果回到石器時代,也許古代的字母文字中,可能存在類似spring的詞,也許字的符號完全不一樣,但它表示的意思,肯定跟中文的春天,英文的spring是大概相等的。”
“但,即使存在這樣一個詞,我們也完全可以斷定這個詞的覆雜程度不會高於現在的spring和春天,為什麽,因為詞的更多含義,並不是語言創立之初被賦予的,而是在漫長的使用過程中自己演化出來的。”
“一個連鐵器都不存在的文明,肯定不會有彈簧的概念——自然也就不需要相應的詞。同樣,在一個性道德還沒有出現的社會裏,性暗示這種高級幽默也不可能有存在的基礎。”
這個叫喬伊的人說話,就跟他抽煙一樣,完全就是一口氣說下來,中間幾乎不存在多少停頓。雖然他的中文不算正宗,中間說著說著還會夾帶出幾個單詞,但大概的意思是明確的。看得出來他的心情有些激動——不知道是熬了一個通宵之後的慣性,還是被話題本身所激發出來的熱情。
這段話的信息量很大,但對陳舍來說其實並不難接受。
因為項目對語言學的關註很早就開始了,其中的一些觀點,做功課的時候,陳舍已經有所涉獵。雖然沒有去做專門的深入了解,但是聽懂這些話本身確實問題不大。喬伊說的這些,只是在前面的基礎上更加深入——倒不是說他們公司在學術上搞出了什麽更深的成果,只是在應用上,用到了更為專業的語言學知識而已。
“更高覆雜程度的語言通常也體現在文學上,從某種程度上來說,文學家對語言的開創性應用本身,就是賦予了同一個詞匯更多的含義,或者在詞匯之間產生更多的映射,甚至根據自己的表達需要,創造出全新的詞匯。”
“比如說超人的英文superman吧,這個概念最早是哲學家尼采提出來的,在德語中是指代未來的某種理想型卓越人士。在由蕭伯納翻譯成英文之後,創造出了一個新單詞superman。”
“superman一個簡單的詞,就可以用來指代尼采原著中,那種覆雜的描述,這種創造性本身,可以看做是對信息的提煉和加工。在漢語中,這樣的現象更加多見,漢語中的成語,可以說是創造性詞匯中,最有代表的一個系列,簡單的四個字,往往代表著很覆雜的一大段概念的集合。
“但是機器語言……不,我應該換一種說法,程序語言。如果我用這種對語言的覆雜度標準,應用在大多數程序語言上的話,那這些程序語言的得分,將會是一個無限接近於0的值。”
“之前我已經說過了,程序是一種最精確的語言——你可以想象一個,一個俄羅斯方塊的游戲語言,整個程序就好像是一個單詞,這個單詞肯定是有意義的,假如我們把組合成這段程序的01展示給外星人看,把程序附帶的運行環境也給他們看,如果程序能被運行——那外星人肯定就能看到一個確切的含義。”
“在這個具體的含義中,是一個不斷出現不同形狀的幾何圖形出現,又消滅的意向——但組合成這個程序的那些單獨程序語句本身是沒有意義的,因為就像我們在討論刻舟求劍時,不會去討論船的速度,劍的重量這些因素一樣……”
老實說,聽到這兒,陳舍已經有點理解困難了,喬伊也看出了這一點,他適當放慢了語速,但陳舍似乎依然難以跟上他的進度。
於是喬伊只能簡單化的給出結論:“以前,地球上是不存在符合語言學定義上的覆雜語言的。但是現在……雖然不知道它是如何出現的,但我們認為,我們找到了……你知道這意味著什麽嗎?”
陳舍搖頭。
“意味著也許就在這顆星球上,某個大公司的機房裏,就存在著一些文明的構造——我說的未必是ai,但它們肯定是掌握語言規則的某種程序,或者某種……東西。”
“它們的語言之覆雜……我學漢語的時候,知道漢語裏最難以被理解的,就是四個字四個字的成語,每一個成語都可以牽扯十幾個附帶詞匯的意向。”
“比如刻舟求劍,船,劍,船上的人,這是基本的,然後還有衍生的概念,水的遮蔽特性,相對於劍的密度特性,相對於人的危險特性……想象一下一個外星人要理解刻舟求劍這個詞,他需要理解多少衍生的附帶概念。最後,在完全理解了這些概念之後,他才有可能理解到成語本身特定指代的某種意向——是用來諷刺主觀意志因為忽略客觀條件的變化而導致的愚蠢行為。
“在英語裏,其實也有類似成語的短句,我就不細說了……”
“這種我們剛剛發現的機器語言,你知道,在它的語言庫裏,我們找到最覆雜的‘成語’,有多少意向指代嗎?”
陳舍看著喬伊,他豎起兩個手指頭:“兩千多個……嚴格來說,它已經不能算是成語了,你知道,兩千多個意向,通常來說,也就是兩千多個詞匯。要表達這些詞匯,考慮到語句上必要的通順和前後的邏輯,用中文大概寫出來的話,就這一個詞,就可以展開寫一篇上萬字的小說了。”
“其實成語就可以看做是被高度壓縮的小說故事——但機器語言中,故事的覆雜程度更高。想象一下這樣一個場景,一個外星人,在電腦上跟你聊天。他說了一句話,裏面包含兩個這樣的關鍵詞——這些詞用01全部表示出來,也就是一兩排而已。但翻譯出來,卻可以是長達幾萬字的內容。你可能需要認真的看20分鐘,再思考20分鐘,才會明白這兩個詞的含義——然後大喊一聲,太tm絕了!”
“所以,你們的任務……”陳舍嘗試著猜測:“是翻譯這種文字?”
“翻譯?”喬伊搖了搖頭,“這個說法太狂妄了。”
“狂妄?”
“翻譯的意思,是把對方文字的所有意思,都轉換成我們能夠理解的意向。但,就我剛才所說,兩個文明的覆雜程度完全不是一個級別的——對方的一個詞,都能讓你思考一個小時……這還是最容易被理解的。你能想象,如果你回到原始社會,你對原始人說的話,可能被他們精準的翻譯嗎?”
喬伊說這話的時候,手上的這根煙正好快抽完,他吸進去最後一口煙霧,然後微微擡起頭來,把這煙霧朝著陳舍頭頂吐去,在他頭頂的上空形成了一小團的雲霧。這個動作不太禮貌,卻也顯得有點孩子氣。喬伊指著這團霧對他說:“更不用說,他們語言中,對時間的定義更加嚴格——同一個詞在不同語境下含義不同,你是中國人,很容易理解。但,如果一個詞在一天24小時的每一個小時裏,含義都不一樣呢?”
“舉個例子把,他們語言中有對應太陽一個詞的單詞,每一個小時的含義都不一樣……朝陽,夕陽,烈日,旭日……中文裏關於太陽的詞匯很多,但在這種機器語言中,太陽只是一個簡單不變的詞,但它的含義,卻比中文裏,所有帶有太陽的詞匯加起來還要多,你能想象嗎?”
“說翻譯……是癡心妄想,”喬伊接著說,“對我們來說,我們只是在瞻仰。就好像一個原始人,靠著一本缺了頁的教科書來學習中文,甚至學習唐詩三百首……當然,具體的語言規則,是由那些語言學專家來負責,我們做的這部分,是大概確定這種數字語言中,單個的字,簡單的數據匹配工作……整個項目中,最沒技術含量的。看著最忙,其實……”
喬伊搖搖頭:“這種感覺……哎,其實當程序員很少會有這種挫敗感,因為在絕大部分項目裏,都是我們來負責推進工作……”
陳舍卻點頭:“我懂,這感覺不好受。”
喬伊扔掉煙:“那,就說說你們公司吧……你們公司還招不招人?對了,中國的工作簽證你們可以搞定嗎?”
陳舍驚訝了一下:“這應該只會是個臨時的項目。”要是開個項目就要把人全部留下來,那青藍咨詢現在應該可以開個富士康了。
“我知道,雖然知道沒什麽希望,但還是要多問這一句,”喬伊道,“我很期待你們公司未來的項目……像這樣的項目,對我們來說,也許一輩子也碰不到一次,你知道嗎,我們項目組很多人甚至以為,你們政府已經發現了外星人,現在正讓我們跟對方交流。”
喬伊不知道,他的這個推斷已經相當的接近事實了。
“所有資料都會需要保密的……”陳舍委婉的提醒。
“這我清楚,在這裏你們連手機都不讓我們用……”喬伊聳聳肩,“我在網上查過你們公司的資料,才成立不到一年……如果你們公司以後招人的話,給我發郵件……青藍咨詢比谷歌酷多了。”
本站無廣告,永久域名(danmei.twking.cc)